本文简要介绍AAAI2021录用论文"HiGAN: Handwriting imitation conditioned on arbitrary-length texts and disentangled styles"。该论文提出了一种新颖的手写模仿生成对抗网络(HiGAN),可以根据任意文本内容生成长度可变的手写单词或文本行,并可以灵活控制生成图像的书写风格。
通常,手写文字模仿任务有两方面的要求:(1)根据任意文本内容,合成多样化、逼真的书法图像; (2)模仿参考笔迹样本的书法风格(如文字歪斜、倾斜、圆度、连体、笔划宽度)。
如图1所示,人类可以通过想象快速学会这种手写模仿。具体地说,给出某种手写体的有限样本,人类可以很容易地从样本中模仿出书写风格,并通过想象将这种书写风格迁移到其它的单词或者文本行上。人类能做到这种想象,也许是因为人类能从给定的手写样本中解耦出书写风格和文本内容。
如果我们能教会计算机模仿这一过程,它们可能就能像人类一样模仿真实的笔迹。所以,这篇论文提出了一种新颖的手写模仿生成对抗网络(HiGAN),该模型可以根据任意文本内容生成长度可变的手写单词或文本行,并可以灵活控制生成图像的书写风格。该文模型主要由五个模块组成:
(1)可输出变长图像的生成器G,该模块可以根据任意文本内容生成变长的手写笔迹图片,并利用条件批归一化(CBN)将整张图片渲染为统一的书写风格;
(2)鉴别器D,该模块用以鉴别真实图片和合成的假图;
(3)风格编码器E,该模块可以从参考样本图片x中解耦出手写风格s,并且不需要显式地访问书写者ID;
(4)书写者识别器I,该模块用以区分笔迹图片属于哪个书写者,该识别器只能对训练集中的可见书写者的笔迹图像进行分类,而不能在测试时识别不可见书写者的笔迹。因此该识别器只在训练时使用,测试时被丢弃;
(5)文本内容识别器R,该识别器是一个预训练的文本识别器,它可以从输入的手写图像中预测出图像中包含的文本内容。由于训练数据只具有有限的语义信息,而本文任务中的输入文本是一个开放的语言域,所以作者将该识别器中包含原训练数据语义信息的RNN部分去掉。这可以阻止该识别器学习到一个被训练集限制的隐式语言模型,并有利于OOV词语的生成。
图2展示了HiGAN的结构及其训练和测试的过程,具体如下:
图2 HiGAN整体结构及训练和测试过程
HiGAN的训练需要一个笔迹图像的集合X,笔迹图像对应的文本标签集合Y,以及相对应的书写者ID集合W。HiGAN的训练过程包括两个部分:(a)从真实样本x中解耦出风格s,并生成和真实图像难以区分的假图象;(b)在一个先验分布中随机抽取风格s来生成不同风格的手写图像。这两种不同的训练方法可以得到两种不同的对抗损失:
训练过程中总体的对抗损失是两个对抗损失之和:
当最大化对抗损失时,对鉴别器D、文本内容识别器R、书写者识别器I进行优化:
当最小化对抗损失时,固定鉴别器D、文本内容识别器R、书写者识别器I的参数,对生成器G和风格编码器E进行优化:
其中λ控制不同损失函数的权重,所有的模块都是以端到端的方式从头开始训练。表1 生成效果定量比较结果
表2 HiGAN合成数据对于识别任务的提升效果
从表1的实验结果可以看出,HiGAN在生成图像视觉质量和模型规模两个方面都明显优于其他基于GAN的方法。表2所示结果证明了使用HiGAN的合成数据补充手写识别任务的训练集,可以提升识别器的性能。
图3 随机风格合成:合成图像的风格是从先验正态分布中随机采样的
图4 参考风格合成:不同合成图像的风格是从参考样本图像中解耦出来的
图5 风格插值实验可视化结果
图6 手写文本内容编辑实验:从“Happy”到“Abcde”
每次只改变一个字母,并严格保留其书写风格
图3展示了HiGAN使用随即采样风格进行生成的可视化结果,可以看到HiGAN能够在字母之间产生自然的连笔。图4所示结果证明HiGAN成功得模仿了参考样本的书法风格。在图5所示风格插值实验中,可以看到手写图像在插值的条件下不断改变其书写风格,而文本内容保持严格不变。此实验证明了HiGAN具有在风格空间中的泛化能力,而不是记忆一些简单的视觉信息。与风格插值实验相对应,图6所示的文本编辑实验中,插值是在文本空间进行的,当每个词逐字母变化时,其书写风格保持严格不变,证明了HiGAN在文本空间中的泛化能力,并能够生成高质量的OOV单词。本文提出了一种新的手写模仿模型HiGAN。该模型可以根据任意文本内容生成多样化的、真实的手写图像,而不受任何预定义语料库和OOV单词的限制。HiGAN还可以从参考样本中提取书写风格,并灵活控制合成图像的书写风格。此外,作者还发现,HiGAN的合成数据可以用于补充数据集,从而提高手写识别任务的表现。
无论是定性的还是定量的比较,都证实了HiGAN在视觉质量和可扩展性方面优于竞争的GANs。然而,人类的笔迹风格是非常随意的,因此HiGAN在合成有意义的笔迹图像上确实存在局限。在未来的工作中,作者还计划进一步提高HiGAN生成图像的多样性和视觉质量。[1] Achint Oommen Thomas, A. R.; and Govindaraju, V. 2009. Synthetic handwritten CAPTCHAs. Pattern Recognition 42(12): 3365–3373. [2] Alec Radford, Luke Metz, S. C. 2013. Unsupervised representation learning with deep convolutional generative adversarial networks. In arXiv preprint arXiv:1511.06434. [3] Sharon Fogel, Hadar Averbuch-Elor, S. C. S. M.; and Litman, R. 2020. ScrabbleGAN: Semi-supervised varying length handwritten text generation. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, 4324–4333.[4] Marti, Z.-V.; and Bunke, H. 2002. The IAM-database: an English sentence database for offlfline handwriting recognition. International Journal on Document Analysis and Recognition 5(1): 39–46.[5] Baoguang Shi, X. B.; and Yao, C. 2016. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 39(11): 2298–2304.[6] Bo Chang, Qiong Zhang, S. P.; and Meng, L. 2018. Generating handwritten Chinese characters using CycleGAN. In Proceedings of the IEEE Winter Conference on Applications of Computer Vision. [7] Christian Szegedy, Vincent Vanhoucke, S. I. J. S.; and Wojna, Z. 2016. Rethinking the Inception Architecture for Computer Vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2818–2826. [8] Eloi Alonso, B. M.; and Messina, R. 2019. Adversarial generation of handwritten text images conditioned on sequences. In International Conference on Document Analysis and Recognition, 481–486. [9] Florian Kleber, Stefan Fiel, M. D.; and Sablatnig., R. 2013. Cvl-database: An offlfline database for writer retrieval, writer identifification and word spotting. In International Conference on Document Analysis and Recognition, 560–564. [10] Graves, A. 2013. Generating sequences with recurrent neural networks. In arXiv preprint arXiv:1308.0850. [11] Harm de Vries, Florian Strub, J. M. H. L. O. P.; and Courville, A. C. 2017. Modulating early visual processing by language. In Advances in Neural Information Processing Systems, 6594–6604. [12] Hsin-Ying Lee, Hung-Yu Tseng, J.-B. H. M. S.; and Yang, M.-H. 2018. Diverse image-to-image translation via disentangled representations. In Proceedings of the European conference on computer vision, 35–51.[13] Lei Kang, Pau Rib, Y. M. R.-A. F. M. V. 2020. GANwriting:Content-conditioned generation of styled handwritten word images. In Proceedings of the European conference on computer vision.
原文作者: Ji Gan, Weiqiang Wang
撰稿:马继钊编排:高 学审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。